吴恩达|机器学习作业6.1.SVM建立垃圾邮件分类器

作者： | 来源：互联网 | 2023-09-08 21:52

6.1.SVM建立垃圾邮件分类器1）题目：如今，许多电子邮件服务提供垃圾邮件过滤器，能够将电子邮件精确地分类为垃圾邮件和

6.1.SVM建立垃圾邮件分类器

1&＃xff09;题目&＃xff1a;

如今&＃xff0c;许多电子邮件服务提供垃圾邮件过滤器&＃xff0c;能够将电子邮件精确地分类为垃圾邮件和非垃圾邮件。在本部分练习中&＃xff0c;您将使用SVM构建自己的垃圾邮件过滤器。
您将训练一个分类器来分类给定的电子邮件x是垃圾邮件(y &＃61; 1)还是非垃圾邮件(y &＃61; 0)。特别地&＃xff0c;你需要将每封电子邮件转换成一个特征向量 $x∈Rnx\in R^n$ 。
本练习中包含的数据集是基于SpamAssassin Public Corpus&＃xff08;http://spamassassin.apache.org/old/publiccorpus/ &＃xff09;的一个子集&＃xff0c;对于本练习&＃xff0c;您将只使用电子邮件正文(不包括邮件抬头)。
数据集链接: https://pan.baidu.com/s/1cEgQIvehUcLxZ0WVhxcPuQ 提取码: xejn

2&＃xff09;大致步骤&＃xff1a;

邮件预处理。首先读取样例邮件查看下。然后进行预处理&＃xff1a;
1.把整封邮件转化为小写
2.移除所有HTML标签&＃xff08;超文本标记语言&＃xff09;
3.将所有的URL替换为’httpaddr’
4.将所有的地址替换为’emailaddr’
5.将所有数字替换为’number’
6.将所有美元符号($)替换为’dollar’
7.将所有单词还原为词根。例如&＃xff0c;“discount”, “discounts”, “discounted” and “discounting”都替换为“discount”
8.移除所有非文字类型&＃xff0c;所有的空格(tabs, newlines, spaces)调整为一个空格
然后再对照单词表得到样例对应的序号列。
提取特征。利用序号列得到邮件的一个特征向量&＃xff0c; $x∈Rnx\in R^n$ &＃xff0c;这里是一个1899维的特征向量。
训练SVM。取C&＃61;0.1&＃xff0c;核函数为线性核&＃xff0c;用训练集训练出模型&＃xff0c;训练精度为99.8%&＃xff0c;再在测试集上测试&＃xff0c;精度为98.9%。
打印权重最高的前15个词&＃xff0c;邮件中出现这些词更容易是垃圾邮件
用训练好的模型预测已给的四封邮件

3&＃xff09;关于Python&＃xff1a;

.lower( )可以转化为小写。
邮件预处理时需要用到re模块&＃xff0c;正则表达式是由普通字符&＃xff08;例如字符 a 到 z&＃xff09;以及特殊字符&＃xff08;称为”元字符”&＃xff09;组成的文字模式。re模块中的函数让你检查一个特定的字符串是否匹配给定的正则表达式&＃xff08;或给定的正则表达式是否匹配特定的字符串&＃xff0c;这可归结为同一件事&＃xff09;。
使用re.sub(pattern, repl, string, count&＃61;0, flags&＃61;0)
pattern是需要被替换的部分&＃xff0c;repl为替换之后的内容&＃xff0c;string为查找的范围&＃xff0c;count表示模式匹配后替换的最大次数&＃xff0c;默认0表示替换所有的匹配。
re.split( ) 用来分割字符串。注意在分割时候不能直接用吴恩达给出的MATLAB的代码&＃xff0c;因为有一些需要转义。
nltk的全称是natural language tool kit&＃xff0c;是一套基于python的自然语言处理工具集。这里主要使用了词干提取的Porter提取算法。nltk.stem.PorterStemmer( )
try和except语句块可以用来运行可能会有问题的代码。
在循环中不想要某些条件执行后面的代码可以用continue跳过本次循环直接进行下一次循环。
sorted函数直接对数组进行排序&＃xff0c;np.argsort是返回排序后的坐标。
关于正则表达式&＃xff1a;
字符”r“的意思是表示忽略后面的转义字符&＃xff0c;这样简化了后面正则表达式里每遇到一个转义字符还得挨个转义的麻烦&＃xff1b;[ ]里面可以用来填要匹配的字符集&＃xff1b;\是转义字符&＃xff0c;让它后面的字符还原它原有的含义&＃xff1b;*匹配前面的子表达式零次或多次&＃xff1b;&＃43;匹配前面的子表达式一次或多次&＃xff1b;$表示只在字符末尾进行匹配。。。这里引用第一个链接里的一些表格以备后用~
更多可参考 http://www.runoob.com/regexp/regexp-syntax.html 或 https://blog.csdn.net/u010254900/article/details/22038741

字符	描述
\s	匹配任何空白字符&＃xff0c;包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
$	匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性&＃xff0c;则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身&＃xff0c;请使用 \$。
( )	标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符&＃xff0c;请使用$ 和 $。
*	匹配前面的子表达式零次或多次。要匹配 * 字符&＃xff0c;请使用 \*。
&＃43;	匹配前面的子表达式一次或多次。要匹配 &＃43; 字符&＃xff0c;请使用\ &＃43;。
.	匹配除换行符 \n 之外的任何单字符。要匹配 . &＃xff0c;请使用 \. 。
?	匹配前面的子表达式零次或一次&＃xff0c;或指明一个非贪婪限定符。要匹配 ? 字符&＃xff0c;请使用\ ?。
\	将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。
^	匹配输入字符串的开始位置&＃xff0c;除非在方括号表达式中使用&＃xff0c;此时它表示不接受该字符集合。要匹配 ^ 字符本身&＃xff0c;请使用 \^。
\|	指明两项之间的一个选择。要匹配 \|&＃xff0c;请使用 \\|。

4&＃xff09; 代码与结果&＃xff1a;

import numpy as np import pandas as pd import matplotlib.pyplot as plt import scipy.io as scio from sklearn import svm import re #处理正则表达式的模块 import nltk #自然语言处理工具包&＃39;&＃39;&＃39;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;part1 邮件预处理&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃39;&＃39;&＃39; #查看样例邮件 f &＃61; open(&＃39;emailSample1.txt&＃39;, &＃39;r&＃39;).read() print(f)def processEmail(email):email &＃61; email.lower() #转化为小写email &＃61; re.sub(&＃39;<[^<>]&＃43;>&＃39;, &＃39; &＃39;, email) #移除所有HTML标签email &＃61; re.sub(&＃39;(http|https)://[^\s]*&＃39;, &＃39;httpaddr&＃39;, email) #将所有的URL替换为&＃39;httpaddr&＃39;email &＃61; re.sub(&＃39;[^\s]&＃43;&＃64;[^\s]&＃43;&＃39;, &＃39;emailaddr&＃39;, email) #将所有的地址替换为&＃39;emailaddr&＃39;email &＃61; re.sub(&＃39;\d&＃43;&＃39;, &＃39;number&＃39;, email) #将所有数字替换为&＃39;number&＃39;email &＃61; re.sub(&＃39;[$]&＃43;&＃39;, &＃39;dollar&＃39;, email) #将所有美元符号($)替换为&＃39;dollar&＃39;#将所有单词还原为词根//移除所有非文字类型&＃xff0c;空格调整stemmer &＃61; nltk.stem.PorterStemmer() #使用Porter算法tokens &＃61; re.split(&＃39;[ &＃64;$/#.-:&*&＃43;&＃61;\[\]?!()\{\},\&＃39;\">_<;%]&＃39;, email) #把邮件分割成单个的字符串,[]里面为各种分隔符tokenlist &＃61; []for token in tokens:token &＃61; re.sub(&＃39;[^a-zA-Z0-9]&＃39;, &＃39;&＃39;, token) #去掉任何非字母数字字符try: #porterStemmer有时会出现问题,因此用trytoken &＃61; stemmer.stem(token) #词根except:token &＃61; &＃39;&＃39;if len(token) < 1: continue #字符串长度小于1的不添加到tokenlist里tokenlist.append(token)return tokenlist#查看处理后的样例 processed_f &＃61; processEmail(f) for i in processed_f:print(i, end&＃61;&＃39; &＃39;)#得到单词表&＃xff0c;序号为索引号&＃43;1 vocab_list &＃61; np.loadtxt(&＃39;vocab.txt&＃39;, dtype&＃61;&＃39;str&＃39;, usecols&＃61;1) #得到词汇表中的序号 def word_indices(processed_f, vocab_list):indices &＃61; []for i in range(len(processed_f)):for j in range(len(vocab_list)):if processed_f[i]!&＃61;vocab_list[j]:continueindices.append(j&＃43;1)return indices#查看样例序号 f_indices &＃61; word_indices(processed_f, vocab_list) for i in f_indices:print(i, end&＃61;&＃39; &＃39;)&＃39;&＃39;&＃39;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;part2 提取特征&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃39;&＃39;&＃39; def emailFeatures(indices):features &＃61; np.zeros((1899))for each in indices:features[each-1] &＃61; 1 #若indices在对应单词表的位置上词语存在则记为1return featuressum(emailFeatures(f_indices)) #45&＃39;&＃39;&＃39;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;part3 训练SVM&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃39;&＃39;&＃39; #训练模型 train &＃61; scio.loadmat(&＃39;spamTrain.mat&＃39;) train_x &＃61; train[&＃39;X&＃39;] train_y &＃61; train[&＃39;y&＃39;]clf &＃61; svm.SVC(C&＃61;0.1, kernel&＃61;&＃39;linear&＃39;) clf.fit(train_x, train_y)#精度 def accuracy(clf, x, y):predict_y &＃61; clf.predict(x)m &＃61; y.sizecount &＃61; 0for i in range(m):count &＃61; count &＃43; np.abs(int(predict_y[i])-int(y[i])) #避免溢出错误得到225return 1-float(count/m) accuracy(clf, train_x, train_y) #0.99825#测试模型 test &＃61; scio.loadmat(&＃39;spamTest.mat&＃39;) accuracy(clf, test[&＃39;Xtest&＃39;], test[&＃39;ytest&＃39;]) #0.989&＃39;&＃39;&＃39;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;part4 高权重词&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃39;&＃39;&＃39; #打印权重最高的前15个词,邮件中出现这些词更容易是垃圾邮件 i &＃61; (clf.coef_).size-1 while i >1883:#返回从小到大排序的索引&＃xff0c;然后再打印print(vocab_list[np.argsort(clf.coef_).flatten()[i]], end&＃61;&＃39; &＃39;)i &＃61; i-1&＃39;&＃39;&＃39;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;part5 预测邮件&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃39;&＃39;&＃39;t &＃61; open(&＃39;spamSample2.txt&＃39;, &＃39;r&＃39;).read() #预处理 processed_f &＃61; processEmail(t) f_indices &＃61; word_indices(processed_f, vocab_list) #特征提取 x &＃61; np.reshape(emailFeatures(f_indices), (1,1899)) #预测 clf.predict(x)

查看样例邮件
在这里插入图片描述

预处理后的样例&＃xff08;吴恩达给出的作业中的样例不对&＃xff0c;visitor you re 他给分为visitor your了&＃xff0c;这是由于在分割的时候是否把’ 作为分割&＃xff0c;这样会导致后面特征提取后少一个非零项&＃xff0c;即只有44项&＃xff09;
在这里插入图片描述

样例对应的词汇序号
在这里插入图片描述

训练精度和测试精度
在这里插入图片描述

15个权重最高的词&＃xff0c;和作业中有些微差别
在这里插入图片描述

测试了给出的四封邮件&＃xff0c;都正确分类&＃xff0c;下面是spamSample2的结果&＃xff0c;分类器把它分为垃圾邮件
在这里插入图片描述

本次作业没有给出知识点概括&＃xff0c;因为上次作业6.0已经大概描述清楚了SVM的原理和模型选择的一些内容&＃xff0c;这次作业其实主要是对练习怎么从文本中提取特征得到一个n维的特征向量&＃xff0c;再进行模型训练。
文本提取和处理也是很难啊~ 继续学吧&＃xff01;

推荐阅读

copy
经验总结_爬虫经验总结

关于爬虫内容的分享，我会分成两篇，六个部分来分享，分别是：我们的目的是什么内容从何而 ... [详细]

蜡笔小新 2024-10-08 10:55:17
go
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
main
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
spring
Java Jigsaw：Java 9的重要特性与Java EE 8及微服务的最新进展

本文最初发表在Thorben Janssen的Java EE博客上，每周都会分享最新的Java新闻和动态。 ... [详细]

蜡笔小新 2024-11-12 18:57:13
main
最详尽的4K技术科普

什么是4K？4K是一个分辨率的范畴，即40962160的像素分辨率，一般用于专业设备居多，目前家庭用的设备，如 ... [详细]

蜡笔小新 2024-11-12 18:25:39
main
微软推出Windows Terminal Preview v0.10

微软近期发布了Windows Terminal Preview v0.10，用户可以在微软商店或GitHub上获取这一更新。该版本在2月份发布的v0.9基础上，新增了鼠标输入和复制Pane等功能。 ... [详细]

蜡笔小新 2024-11-12 16:15:56
int
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
go
Java并发编程指南：深入理解信号量机制

本文是Java并发编程系列的开篇之作，将详细解析Java 1.5及以上版本中提供的并发工具。文章假设读者已经具备同步和易失性关键字的基本知识，重点介绍信号量机制的内部工作原理及其在实际开发中的应用。 ... [详细]

蜡笔小新 2024-11-11 15:49:02
int
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
yaml
ElasticStack 日志监控：Logstash 编码插件详解与生产环境应用实例分析

在ElasticStack日志监控系统中，Logstash编码插件自5.0版本起进行了重大改进。插件被独立拆分为gem包，每个插件可以单独进行更新和维护，无需依赖Logstash的整体升级。这不仅提高了系统的灵活性和可维护性，还简化了插件的管理和部署过程。本文将详细介绍这些编码插件的功能、配置方法，并通过实际生产环境中的应用案例，展示其在日志处理和监控中的高效性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 19:27:28
go
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
int
掌握PHP编程必备知识与技巧——全面教程

掌握PHP编程必备知识与技巧——全面教程在当今的PHP开发中，了解并运用最新的技术和最佳实践至关重要。本教程将详细介绍PHP编程的核心知识与实用技巧。首先，确保你正在使用PHP 5.3或更高版本，最好是最新版本，以充分利用其性能优化和新特性。此外，我们还将探讨代码结构、安全性和性能优化等方面的内容，帮助你成为一名更高效的PHP开发者。 ... [详细]

蜡笔小新 2024-11-03 16:38:49
int
Grafana 邮件与微信告警配置指南（独立于 Alertmanager）

本文详细介绍了如何在 Grafana 中独立于 Alertmanager 配置邮件和微信告警。具体步骤包括配置 SMTP 服务器以实现邮件告警，以及设置微信告警的集成方式。通过这些配置，用户可以更灵活地管理和接收来自 Grafana 的告警通知，确保及时响应系统异常。文章还提供了详细的配置示例和常见问题的解决方案，帮助用户顺利完成设置。 ... [详细]

蜡笔小新 2024-10-31 22:55:34
go
机器学习算法常见面试题目总结

机器学习算法常见面试题目总结,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-10-09 10:24:30
go
圣诞节到了，智能菌想送你一份礼物

关注网易智能，聚焦AI大事件，读懂下一个大时代！（机器学习算法地图见文末）圣诞节的赠书活动来了！ ... [详细]

蜡笔小新 2024-09-29 11:06:55

Tags | 热门标签

RankList | 热门文章